[レポート] データレイクハウスのためのIcebergとSnowflakeによる異種エンジン間ガバナンス #AWSreInvent #ARC332
データ事業本部 インテグレーション部 機械学習チームの鈴木です。
AWS re:Invent 2024の、セッション番号ARC332の『Cross-engine governance for a data lakehouse built on open standards』を聴講したのでレポートです。
AWS re:Invent 2024ではSageMaker Lakehouseをはじめ、データの相互運用性をテーマとしたアナウンス・発表が多い印象です。このセッションではApache IcebergとSnowflakeを例にこの内容が説明されていました。
オンデマンド動画
Allianz Technology社のメンバーとSnowflakeのメンバーによる発表でした。Allianz Technology社のデータ分析基盤における課題について、Apache IcebergとSnowflakeの技術を要素にどのようにアプローチされているかが説明されました。
概要・ポイント
Allianz Technology社のデータ分析システムの課題の一つとして、最終的なデータを特定のデータベースに保持しているために、利用側でコピーが発生していることが挙げられました。
この解決のため、OneDIAという新たなデータエコシステムの構築を進めているそうです。
新たなエコシステムの構築のため「データへのアクセス制御」と「データ処理」の2つのボトルネックが紹介されました。
このボトルネックの解決のため、Apache IcebergとSnowflake Polaris Catalogが紹介されました。
メダリオンアーキテクチャ(ブロンズ→シルバー→ゴールドの3層からなるアーキテクチャ)を考えた際に、生データを配置するブロンズ層をIcebergテーブルにしておくことで、後続の層は様々なエンジンから処理を行うことができます。また、トランザクション制御・スキーマ進化・タイムトラベルなどこれまでのデータレイクが苦手としていたデータウェアハウスの特徴を持つことができます。これにより、データ処理のボトルネックにアプローチするそうです。
データへのアクセス制御へのアプローチとしては、Polarisが紹介されました。特にSnowflakeではPolaris Catalogが発表されているため、アクセス制御を任せることができます。
Polaris Catalogについては以下の記事も参考になりました。
最後に
Apache IcebergとSnowflakeの技術を要素にAllianz Technology社がどのようにデータ活用の課題にアプローチしているかを学ぶことができました。
今回紹介された異種エンジン間でのデータの相互運用性のような内容はまだまだ広く理解されているものではないように個人的には感じており、今回のre:Inventで発表があったSageMaker Lakehouseの目的やメリットもピンと来る方ばかりではなかったのではと思います。
このセッションはそういった内容についても理解しやすいものだったため、ぜひ一度見てみて頂けるとよいかと思いました。